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© Verfahren zur Relevanzbewertung bei der Indexierung von Hypertext-Dokumenten 

Qp Die Erfindung bezieht sich auf ein Verfahren 2ur Rele- 
vanzbewertung bei der Indexierung von Hypertext-Doku- 
menten mfttBls Suchmaschine, welches in drei Phasen 
a bl auft. In de r Auf ba uph ase I iefert das Robotersystem Hy- 
pertext-Dokumente an den Indexserver. Der Indexaerver 
analysiert den Inhalt der Dokumente nach drei unter- 
schiedlichen Gesichtspunkten. In der Aktualisierungspba- 
se we rden Doku mente, de ren Inhalte sich seit dem letzten 
Besuch verandert haben, zunachst aus dem Dokumenten- 
index entfernt. Die betreffenden Termeintrage warden ak- 
tuatisiert. Sofern das veranderte Doku mant weiterhin ver- 
fugbar ist, wird entsprechend den Arbeitsschritten der 
Aufbauphase in den Index eingefugt. In der Anfragephase 
werden in Abhangigkeit vom verwendeten Anfragetyp 
(emfache Anfrage, komplexe Anfrage, Boolsche Anfrage 
odBr Phrasenanfrage) aus dem Index die Dokumente er- 

mittelt, die auf die Anfrage zutreffen. Fur jedes gefundene 

Document wird der eigentfiche Relevanzwert susden vor- 
ausberechneten Relevanzwertanteilen, der zum Anfrage 
zeitpunkt vorliegenden Anzahl an Verweisen auf das Do- 
kument und der Gesamfanzahl der Dokumente im index 
zum Relevanzwert des Dokuments verrechnt. 



n entnommen 

mittels Suchmaschine 
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Besehreibung 



(0001] Konvenlionellc Suchmaschincn arbeilcn in der Re- 
gel auf deni Prinzip der Volllcxl.indcxierung. Bei der Vill- 
lexlindexierung wird pro Dokumenl die Haufigkcitsverlci- 
lung von BegrilTen dcs Dokumenls oder eines Toils dcs Do- 
kumcnts in einem inverticrten Index crlassl. Dieser Index 
wird benutzt, uiu /. m 1 i Anlragczeitpunki die Dokumenle zu 
besdmmen, in denen die gcsudil.cn BegrilVe auftrelen. Dos 
weiteren wird an Hand oiner systemspczifischen Relcvanz- 
bewedungsfunklion Bir jedes Dokumenl ein Reievanzwerl 
ennillell. Auf der Basisder Retevanzwcrle werden die Br- 
gebnisdokumenlc anschlteflcnd sorlicrl ausgegeben. 

100021 Wesenllich hierbei ist die Talsache, dass zur Be- . — — <?.- 

wenung nur die Begrilfe herangezogen werden, die auch in. IS Suchniaschinen des WWW zugrunde begt wurden neben 
% h 6 --er eingcschrilnklen Volllcxlindexierung, die Icdiglich die 

Reori (T l* des Dokuments indexierte. 



deumngen des Dokuments erfassen und somit wird das 
Dokumenl nur fur die vom Dokumentenautor erfasst en 
BcdeuUingen als relovanler belraduel werden als an- 
dere Dokumenle. 

Dureh die hohcrc Ciewichiung der Mela-Beschrei- 
bungen isf die Relevanzbewerlung bei unkonLrollierlcn 
Dokumenijenmengcn often fur Manipulationcn - als 
Spamming bczeichnel da die Dokumentenauioren 
willkilrliehe Begriffe in den Mela-Beschrcibungcn ver- 
wenden konnen. 



[0006] Bin bekanntes Verfahren /ur Relevanzbewerlung 
bei der Indexierung von Tcxten hasten auf dem Lycos Sy- 
ii. Bei dieser Ixisung, die ciner der erslen kommeraellcn 



Dokumenl auftreicn. 

|0O03] Bei der Reievanzwerl bercchnung konnen bc- 
slinmitc Elcmcnlc des Dokumenls sliirkcr gcwichlcl werden 
als der normalc Texlinhalt. Hierzu ziihlcn: 

Mcla-Infonnationen, insbesondcre wcnlen Inhalts- 
besebreibende Slichworte ausgewertet 
Titci und Uberschriften 
Die ersten Zcilcn eines Dokumenls 
~ Anzahi der Verweise auf das Dokumenl 

Ankertexte von Verweisen auf andere Dokumenle 
■ Absiand zwisehen BegrilTen 
- Phrasen 

[0004] Die Enniltiung des Relevanzwerlcs erfolgt auf der 
Basis der relaiivcn Naufigkeilen der Begriffc mil Hilfc von 
I nfonnaiions-theoretisehon Mcthoden. Kurze Dokutncnte, 
in denen die gesuchlen Begriftc haulig auftre,en, werden als 
relevanter bzgl. der angefragten Begriffe beweriei als Uin- 



hundert "wichiigsien" Begrilte des Dokumenls indexierte. 
zwoi neuc Konzepte cingcfUhrt. Erstcns, wurden Begrilte 
die in spczielJ ausgezeichneten Dokumentleilen auflralen 
20 (wie z. B. 'filet, Ubcrsdiriflen. den ersten 20 Zeilen des Do- 
kunienis) bei der Relevanzbewerlung slacker gewichtet als 
bei ihrem Auftrelen in anderen Bestandtcilcn des Doku- 
ments. Zweilens, floss in die Relevanzbewerlung eines Do- 
kuments bzgl. der Suchanfragc zurn erste Mai eine Infonna- 
25 lion liber die HXikumentenunigeburig" in Form der " Anzahi 
der exlemcn Verweise auf das Dokumenl" - als Popularity 
bczeichnel - mil ein, so dass lirgebnisdokumente, auf die 
sehr ofl von anderen Dokumenten aus verwicsen wird. als 
"relevanter" betracblcl werden als Dokumenle, auf die selte- 
30 ner verwicsen wird (Mauldin 97). 

|0007] Die "Anzabl der exlernen Verweise auf ein Doku- 
menl" kann als cine Form eines "citation index" beirachici 
werden, nut dem zwar in einigen Fallen die Quality dcs Su- 
chergebnisses verbessert werden kann, welches aberniehl in 
dTubJ^ gesuchlen » alien Fallen funklioniert. So werden beispielsweise bei einer 



Suehe mit Lycos nach den Begriftcn "Deutsche Telekom' 
altere Presseveroffenilichungen als “popularer" betrachtet 
als die Homepage der Deutschen Telekom, auf die mil gro- 
gewichtef als Begrifte, die fan gesamten Dokumenlenbc- Ber Wahrscheinlichkcil weilaus QCtar wrwiowi werden 
fmnri hsnfiper auflreten 40 durfle. Insofem erscheinl die ver8ffentlichte Aussage uber 

die Boiiicksichtigung der Popularity als ITagwiirdig. 

[0008] Dariiber hinaus werden hierdureh Meta-Besohrei- 
bungeo des Inhalls nur im Rahmen der Methoden der einge- 
_ Reine Vblltexlindexterung wurde fur kieinc, konirol- selzten eingcschranktcn VoUtextindexierung berucksichligt. 
lierte Dokumenienmengcn konzipieri, die nicht not- 45 [0009] Bekarmt ist weiterhm ein mu Rankdex bezeyhne- 
wendigerweisc als verkniipfler Hypertext ausgclcgi tes Verfahren. Mil Rankdex wurde emc erste expenmeniellc 
sind. Eine Ubernahrnc der Volllcxlindexierung fllr Hy- ImplemenUetung (http V/rankdex^gan. com/) einer neuen Kc- 

pertexle (wie z, B. das World-Wide-Web (WWW) Oder levanzbewertungsfunkuon yerdffemlKlK welche auf dem 
Wcb-basierte Intranets) nutzi die in den - in Ttypertex- Prinzip des "Hyper Vektor Volmgs <HW) hurt 04 98). 
ten verwendeten - Verweisen kodierte Information SO Bei dieser Bewcrtungsmcthodc werden sowohl die PopuU- 
. h , , u . ritUt als auch die "Texte - als Ankertex te bezeichnet - , die i n 

- Es konnen lediglich Begrilte gesucht werden. die in extemen Verweisen auf ein Dokumenl ve^endet werden" 

den Dokumenten selber auftrelen, bzw. fiir die nut berucksichligt, so dass "Dokumenle, auf die haufig m t den 

Hilfe eines Thesaurus synonyme Begrifte beslimmt gesuchlen Begnffen verwicsen wird als rclevan er beLrach- 

werden konnen. die in den Dokumenten auftrelen. 55 let werden als "Dokumenle, auf die sellener mil (ten gesuch- 

- Das Vorkommen von BegrilTen einer Anfrage in ei- ten Begriffcn verwiesen wird . Dvr Inhalt der Dokumenle 

nr.,,, Dokumenl sagl in der Regcl wenig bzgl. der Rele- wird bei dieser Mclhode - bis auf die Ankertexie mcht bc- 

- - ’■ ‘ J - riicksichtigL. 

[0010] Diesem Verfahren liegt die Beobachtung zu 
■ 60 Grunde, dass Dokuincntautoren, die auf ein anderes Doku- 
ment verweisen, den Vcrweis in den meisten Fallen tt ‘ ' 



Begriffe sellener auftrelen. Hntsprecliend der informadons- 
theoretischen Belruchtungsweise werden scltenc Begrifte - 
bezogen auf den gesamten Dokumentenbcstand - starker 
gewichtet als Begriffc, d' e ' m nesamteti Dokumenten be - 
sLand haufiger auflreten. 

[0005] Verbundcn mit Resent Ansatz sind folgendc Pro- 
bleme: 



. . i/, des Dokuincnts bezogen auf die Anfrage aus, da 
die Bedeulung der Begriffe nicht erfasst wird und da- 
mii auch keine Aussagen liber die Bedeutung des ge- 6 
samten Dokuments moglich sind. Um dieses Defizil 
auszugleichen, wurden Ansatzc entwickclL bei denen 
die Dokutnentautoren die Bedeutung des Dokuments in 
Form von Meta-Beschreibungen annotieren und bei de- 
nen das Vorkommen der gesuchlen Bcgrifle in den 6 
Me la- B esc hre i bun gen starker gewichtet wild und so zu 
einem hoheren Relevanzwert filhrt. 

- Der Dokumentenautor wird nicht alle moglichen Be- 



kurzen und sehr priignanlen Bescbreibung versehen, die 
den Inhalt dcs Dokuments, auf das verwiesen wird, sehr gut 
beschreibt, so dass der vcrwendetc Ankertext als Mcta-Be- 
schrcibung bctrachtol werden kann. Wird bcispictswcise cin 
Verwcis mit den BegrilTen "Deutsche Telekom" versehen, 
so wird man dureh den Verweis in den meisten Fallen auf die 
Homepage der Deutschen Telekom verwiesen werden. 
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[0011] Die Mela-Bcschreibungen der Ankertexie werden 
in dcr Regcl von einer Vielzahl von Auloren erzeugl, wobei 
diese durchaus auch allernalive Begriffe in den Ankertexten 
verwenden werden. So ist cs beispiclsweise mbglich, (lass 
auf die '’Homepage" der Deulschcn Telekom im WWW 
aueh mil den Ankertexten "Homepage dcrDculschen Tele- 
kom", "Deutsche Telekom AG”, "Telekom”. "German Tele- 
kom" etc, verwicsen wird. All diesc Ankcrlexie konnen als 
allernalive Meta-Beschreibungen bclraetuei werden. 

|0012] Die Gcfahr dcs Spammings isl /.war auch bci die- 
sem Ansatz gegeben. da prin/.ipiell cin Dokumentautor 
‘lurch die gcziolto Verwcndung von beslimmten Ankenex- 
ten die Rdevanzbewcriungsfunktion manipulicren kann. 
Dcnnoch ist der Einfluss dieser Form des Spammings auf 
die Reievanzbewertungsfunktion jedoch verglcicbsweise 
goring, da sic durcb die Anzahl und Art der Ankcrtexte, die 
von anderen Autoren verwendel werden. nivellien wird. 
[0013] Mil dicscr Form der Rclcvanzbcwcrlung is! cs dar- 
iiber hinaus moglich, auch Dokumenle zu finden, in rlpm-n 

die Suehbegriffe sclber nicht. auftreten, die aber 

Suchbegriffen beschrieben werden konnen. Des Weilercn 
konnen auch Dokumenle in anderen Spraehen gefunden 
werden, bzw. Dateien mil nichi-iextucllem Enhalt, wie.z. B. 
Bild-. Audio-, Video-, Oder Archivdaleicn oder ausftihrbare 
Programme. 

[0014] Der Rankdex AnsaLz isl jedoch dadurch be- 
schriinkl, dass or den eigentlichen Inhalt der Dokumente 
nicht berucksichligl. 

[0015] Bei Rankdex handelt es sich urn cine experiroen- 
lelle Implementierung einer Suchmasehinc, die auf JTW 
basiert. Zu Ibstzwecken wurden bei diesem Experiment 
19975.3 Millionen Intemetseiien gesammelt lind ein Index 
von rund 100 MB aufgebaui. Durch einen Vcrgleicli mil an- 
deren Suchmaschinen konnte nicht nur die Qualiiiit der Er- 



Sorticrung dieser Dalennienge bendtigl, benoiigt dcr Aktua- 
lisierungsprozess von 26 Mio. Dokumenle des Indexes dem- 
nach weit mehr als 24 Stunden. Wtc dies zu der zuletzl go- 
schiilzlcn TndcxgroKe von nind 190 Mio. Dokumcnl.cn ska- 
i licrt, und ob dies weitcr oplimierf wurde, isl unbekannl. 
[0020] /war lerminiert die Bcrechnung des PageRanks 
bd den Dokumenlen, auf die von keinem anderen Dokii- 
menl aus verwicsen wird, so dass dercn PageRank prinzi- 
piell als konslanl belrachlcl werden konnte. Das garantiert 
m aber nicht, dass nicht irgendwann doch auf die Dokumenle 
verwicsen wird, so dass die Bcrechnung des PageRanks bei 
einer Akiualisierung auch fur diesc Dokumenle immer von 
Neuern crfolgcn muss. 

[0021] Bedingl durch den kompilierenden Ansatz bci der 
IS PageRank Bcrechnung kann cine Akiualisierung des Inde- 
xes ntir in zcillich groBcren Abslanden erfolgen. 

|0022| In die cigcntliche Berechnung des Relevanzwerls 
dcr Suchergcbnissc flicBcn neben deni PageRank und den 
™ StandardmaBen des Information Retrievals weilere In forma- 
den 20 tionen ein. wie z. B. das Vorkommen der Suchbcgrilfe im 
Titel, in Ankertexten, URLs odcr speziell ausgezeichnelen 
Textleilon und - bci Mehrwortanfragen - die Nahe zwischen 
den Vorkommen dcr einzelnen Begriffe, Wie diese Informa- 
lionen miteinander verkntipB werden, isl nicht bekannt. 

25 [0023] Bei Google handelt es sich urn cine InterneLsuch- 
maschine, die aus einem Projckt der Stanford University 
hervorging, welches 1998 in der Grundung der Firma Goo- 
gle, Inc. mtindete. Aus dcr Zeit vor der Firmengrundung 
sind detailliertere und publizierte Infomiationen iiher Goo- 
30 glo bekannt. 

|0024] Bci Google werden wie bei Rankdex Ankertexie 
gesondert bewertel. ITierbci liegt der Unterschied der Ver- 
fahren, neben der gesonderten Bewertung anderer Textkom- 
ponenlen, in dcr Bewertungsfunktion. Zwar wurde Air Goo- 



unter Beweis geslclit werden, es konnten ebenfails 35 gle diese Bewertungsfunktion nicbL im Detail verdffentlichk 



dies Vorteile und die der bereits oben besehriebene Nachtcil 
klentifiziert werden. Rankdex konnte bisher nicht inspizierl 
Oder getestet werden, da die publizierte URL hup://rank- 
dex.gari.com/ bisher nicht zugreifbar war. 

[0010] Mil dem Ansai/. von Google (Bryn & Page, 98) 
wurde eine Methode voigcstellt, mil der die Nachteilc reiner 
Volltexlindexicrung, dcr alieinigen Bcurteilung dcr Popula- 
rity and der Ankertexie behoben wurden. 

[0017] Der mil Google vorgestelite Ansatz beruhl darauf. 



dennoch isl. bekannt, dass sie neben dem DokumentinhaLt 
auch die Posjtionen der gesuchten Begriffe im Dokument, 
Formatierungsinfonnationen, Ankcrtexte und den Page- 
Rank des Dokuments miteinander kombiniert. 

[0025] Der PageRank eines Dokuments ist ein globaler 
Wert, dcr unabhiingig vom Inhalt allein aus der topologi- 
schen Struktur des WWWs bestimml wird und als "Zitie- 
mngsgrad" interpretiert werden kann. Veminfachl gespro- 
chen erhalten Dokumente, auf die von "wichligen” Doku- 



zu verarbei tenden Dokumente aus dem WWW ge- 45 menten verwicsen wird, einen hoheren PageRank als Doku- 



laden und lokal gespeichert werden. Aus diesen Dokumen- 
ten wird die topologische Verwcisstruktur extrahiert und 
ebenfails gespeichert. Mil einer Bewertungsfunktion wird 
der "sogenanntc PageRank” mil Hilfe eines in mehreren 
Durchtaufen konvergierenden. ileraliven Algorithmus be- 50 
rechnel , Der PageRank eines Dokuments erreebnet sich aus 
den PageRanks "alier Dokumenle, die auf das Dokument 
verweisen" und betrachlet lediglich die topologische Vcr- 
weisstruktur und nicht den Inhah dcr Dokumenle, Da eine 
Ruckwartsverfolgung von Verweisen im WWW nicht mog- 55 
licit ist, kpmmt dieser Ansatz nicht umhin. alle Dokumeme - 

resp. einen GroBteil — zunaehst zu laden und die lopologi- 
sehe Verwcisstruktur lokal zu speichem, bevor mit der Be- 
rechnung des PageRanks begonnen werden kann. 

[0018] Bedingt durch die iokale Speicherung der Doku- 60 
mente und der lopologischen Verwcisstruktur wird vie] 
Speicberplatz benoiigt. 

1 0019] Die Bcrechnung des PageRanks erfolgt. dann sclber 
! rt einem Stiick, so dass der verweudete Algorilhnuis als 
tcichnct werden kann. (Bryn & Page 98) 
schreiben 1 a PageRank of 26 million web pages can be com- 
puted in a few hours”. Zusammen mit einem anderen Pro- 
cess - als Sorter bezeiebnet der rund 24 Stunden fur die 



tnenle, auf die von "unwiehtigen" Dokumenten verwiesen 
wird. Je ofter auf ein Dokument verwiesen wird, desto 
"wichtiger" wild es eingestuft. 

(0026] Dcr PageRank kann allein aus der lopologischen 
Struktur, der Anzahl der Verweise und dem PageRank ande- 
rer Dokumente bestimmt werden. Zur Bcrechnung des Pa- 
geRank eines Dokuments wird dcr PageRank alter Doku- 
mente verwendel, die auf das Dokument verweisen. Zur 
konckien Berechnung des rckursiv definierten PageRanks 
eines Dokuments muss somit der PageRank der auf sie ver- 
weisenden Dokumente bekannt sein. 

[0027] Hieraus ergi bt sich konseq uenterweise der Schluss, 
dass bei einer Anderung des PageRanks eines Dokuments 
nicht nur tfessen PageRank aktualisiert. werden muss, son- 
dent auch der PageRank atler von diesem Dokument aus er- 
reichbaren Dokumente. Irn sehlitmnsten Fall muss bei der 
Anderung eines Dokuments der PageRank alier Dokumente 
des Index neu bercchncl werden. 

[0028] Fiir Google wurde nicht beschrieben, u 
wertungsfunktion die ‘ 
kombiniert. Insofem ist auch unklar, wie Informationen au„ 
dem Ankertexten mit dem PageRank kombiniert werden. 
Den Publikationen iiber Google kann enlnommen werden. 
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dass eine Anderung von Dokuntenten zwar permanent in 
den Index aufgenommen wild, die Bercchnung des Page- 
Ranks und die Sort.ierung des Index jedoch in einer Stapel- 
verarbeilung (Batch-Lauf) erfolgUdieaHein fiir die paraliele 
Sorlierung von 24 Mio. Dokumenlen auf vicrRcchncm rund 
24 Stunden benotigl. Ilieraus ergibl sich die Folgcrung, dass 
cin Index-Update ais Slapelverarbeilung durchgcfuhrl wild, 
und sotnil indexaktualisierungen nur in zeitlich grolieren 
Abslanden erfoigon. 

j 0029] Die Erlindung ist auf tin Relevanzbewerl un gsver- 
fahren ausgerichlet, dass eine besserc und akluellcrc Inde- 
xierung von T-Iy pcrtext-Dokumenien enndglichl. 

|0030] Grundlagc des crlindungsgemaBen Verfahrens isi 
eine Suchrnascbine, die nachl'olgcnd mil "TeleFinder" be- 
zeiebnet wird. 

|0031| Die Suchmaschine TeleFinder besteht so wie die 
meisten bekanmen Suchmaschincn, im Wesentlichen aus 
zwei Kompononlcn, einem Robotcrsystcm inklusivc Daton- 
bsmk und einem Indexserver inklusivc Benutzeroberflache. 
[0032] Das Robotcrsysiem liidtausgebend von Slartadres- 20 
sen Dokumente, durchsucht sie auf bishcr unbekannte Do- 
kumentadressen und iibergibt. die Dokumeme dem Indexser- 
ver, Ausgehend von den neuen, unbekannlen Adrcssen wer- 
den die korrespondierenden Dokuinenle geladen und der 
Zyklus omeui durehluufen, bis alle erreichbaren Dokumente 25 
verarbeilet wurden, 

[0033] Der Indexserver anaiysiert den Inhall der Doku- 
menle und baut einen invortierten Index auf. welcher fur die 
Anfragebearbeitung benutzt wird. Wie bei jeder andcren 
Suchmaschine auch, wird die QuaiiiSl der Suchcrgebnissc 30 
durch die Inhalte der Dokumente, die Beriicksichtigung aus- 
gewahller Strukturef entente und insbesondere auch durch 
die verwendete Bcreclmungsfuiiklion bestimmt. 

[0034] Das crfmdungsgemiiSo Rolevanzbewertungsver- 
faiiren fiir den Indexierungsvorgang des TeteFindcrs basiert 35 
auf der Grundidee die aus dem "Hyper \fector Voting' 
(HVV) bekannle Verfahrensweise der EnniUlung des Rele- 
vanzwertes eines Dokuinentes anliand der Ankertexte von 
Verweisen, die auf das DokumenL verweisen, milder aus der 
konventionellen Volitexlindexierung bekannlen Verfahrens- 40 
weise, die auf der Indexierung von Suchbegriffcn aus dem 
eigenLlichen Dokument basiert, zu kombinieren. Das erfin- 
dungsgemabe Verfahren be,wirkt eine neue Qualital bei der 
Suche nach relevanten Dokumenlen. da es die posiliven Ei- 
gcnschaften des Hyper Vector Voting Verfahrens mit den po- 45 
sitiven Eigenschafien des Verfahrens der konventionellen 
Volitexlindexierung in einem neuen Verfahren vereinigt. 

[0035] Gegenuber herkdinmiicher Volitexlindexierung 
IlieGen dutch die besondere Beriicksichtigung und Gewich- 
tung von Ankertexten (der Texte, rail denen die Verweise 50 
auf ein Dokument versehen wetricn) in die Gesamthewer- 
tung auch Iuhaltsbeschreibungen ein, die von anderen Do- 
kumentenauforen erslelll. wurden. Die Ankertexte, die meisi. 
sehr pregnant und prazise den Inhalt des referenzierten Do- 
kutnents beschreiben, bilden so eine Form von Mela-Be- 55 
schreibung, die bei der Bewertung berUcksichtigt wird. 

1 0036] Zur Relevanzbewerlung benutzt der TeleFinder ein 
Relcvanzbewerlungsverfahren, welches durch Gewichlnng 
unterschiediicher Anteiie der Funktion parametrisiert wer- 
den kann. Utiterschiedlich gewichtet werden kann so der 60 
Ein flu 6 der folgenden Dokumentenbestandteile auf den Ge- 
samt.relevanzwert: 

- Titei 

- tibcrschriftcn unlerschiedlicher Glicdcrungscbencn 

- Phrasen 

-■ Phrasen in Ankertexten 

- Tbxle in Verweisen auf das Dokument. 
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Texlein Verweisen innerhalb des Dokumenls 
- Dckumcntadressen 

[0037] Durch unlerschiedlichc Gewichtung dieser F.ic- 
5 memo isl die Rclevanzbcwcrtungsfunktion selbcr konfigti- 
rierbar. 

[0038] Das erfindungsgemalle RelcvasizbcwerUingsvcr- 
fahien lauft in drei Phascn ab. Die drei Phascn miissen dabci 
nichl nolwendigerweisc scquentiell abluufen. 
to 1 0030] In der erslcn Phase, die mil Aufbauphase bezeich- 
nct wird, licl'ert das Roboiersystem Hypertext- Dokumcnl c 
an den Indexserver. IXr Indexserver anaiysiert. den Inhall 
der Dokumente nach drei unlcrschiedlichen Gesichlspunk- 
ten: 

15 

1. Werden Verweise in dem Dokument identifizierl, so 
wird fOr jede aus dicsen Verweisen bcslimmbare 
Adrcssc ein ncucr Dokumcntcncint rag im Index angc- 
iegt, sofern ein solchcr noch nicht existierl, Ansonsten 
wird derDokumentcneintrag entsprechend aktualisiert. 
Fiir die in den Verweisen verwendeten Bcgriffe der An- 
kertexte werden neue Tcrmeintragc im Index angelegt, 
sofern dicse noch nichl. existieren. Ansonsten werden 
die entsprechenden Tcrmeintriige aktualisiert, "Fiir je- 
den BegrilT des Ankertexles wird entsprechend einer 
Gewichtung ein partiellcr ReLovanzwert. vorausberech- 

2. Werden spczieU markicrie Textinhalte (z. B durch 
die HTML Auszcichnungen Tilel, HI, T-I2 Oder H3 
markiert) in dem Dokument identifiziert, wird ftir jeden 
Begriff, der in dicsen markierten Textinhalten verwen- 
dei wird, ein neuer Tenneinirag im Index angelegt, so- 
fern dieser noch uicht exisliert. Ansonsten werden die 
entsprechenden TemieintrSge aktualisiert, Fiir jeden 
identifizierten Begriff wird entsprechend der Gewich- 
tung der Markierung ein partiellcr Relevan/.wert vor- 
ausberechnet. 

3. Fiir jeden andcren nicht-markierten Texlinhalt wird 
ein neuer Temieintrag im Index angelegt, sofern dieser 
noch nicht existiert. Ansonsten wird der entsprechende 
Tenneinirag aktualisiert. Ftir jeden dieser BegrifFe wird 
ein partieller Reievanzwert vorausbereebnet, 

[00401 In der zweiten Phase, die ais Akiuaiisierungsphase 
bezeichnet wird, werden Dokumente deren Inhalte sich soil 
dem letzten Besuch verandert haben, zunachst aus dem Do- 
kumenlenindex entfemt. Die betreffenden Termeintrage 
werden aktualisiert, Sofern das veranderle Dokument wei- 
terbin verfiigbar ist, wird es entsprechend den Arbeitsschrit- 
ten der Aufbauphase in den Index eingefflgL 
[0041] Diese Verfahrensweise hat u. a. den Vnrleil, dass 
ein Dokument - solange es sich nicht verandert hat - nur 
einmal uber das Netz von einem anderen Server geiaden 
werden muss, und dass es nicht lokal gespeichert werden 
muss. Daruber hinaus enndglichl diese Verfahrensweise 
auch Verweise auf Dokumente in den Index aufzunehmen, 
deren zugehdrige Dokumente selber noch nicht geladen und 
anaiysiert wurden. 

[0042] Daruber hinaus wird durch die partidle Vorausbe- 
rcchnung der Reievanzwerte die Bestimmung des Reievanz- 
werts zum Anfragezeitpunkt. minimiert. Mit unlerschiedli- 
chen Gewichiungswerten fur Ankertexte in and auf Doku- 
menle, fur Phrasen und tur unlerschiedliche Textmarfcierun- 
gen, ist die Relevanzbewertungsfunkiion parantetrisierbar 
65 undsomitflexibeikonfigurierbar. 

|0043] Die dritle Phase wird mit Anfragephase bezeich- 
net.. 

[0044] In der Anfragephase werden in Abhangigkeil vom 
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verwcndeien Anfragclyp (einfache Anfragc, komplexe An- 
frage, Boot'schc Anfragc odcr Phrascnanfragc) aus dem In- 
dex die Dokumenie ermillclL, die auf' die Anfragc zulreffen. 

Tuir jedes gefundene Dokumenl wird dcr eigentlichc Rele- 
vanzwert aus den vorausberechnel cn Rclcvanzwertan lei ten, 5 
der zum Anfragezcilpunkt vorliegenden Anzahi an Verwci- 
sen auf das Dokumenl und der Gesarnlanzahl der Doku- 
nicnic ini index zum RcJcvanzwert des Dokunienis verrcch- 

j 0045 i ini (jegensalz zu dem rail Google vorgcslelHcn to 
An sal 7 liandcli cs sich bei dcr im TelcP'inder realisierten Li> 
sung lint ein inkremenldies Verfahren. bei dem aklualisierle 
Dokumenie direkl in den Index inlcgrierl werden und soniil 
prinzipiell umgehend naeheincm als "flushen" bezeiehne- 
len Spcichem des Indexes /.nr Suclie hcreiigcslelll werden. 15 
Im Vcrglcich zu dem Google Ansalz kann dadurch cine 
weilaus hohere Aktuaiitat des Indexes garanlien werden. 
Durch die dircktc inkremcnlollc Vcrarbcilung von neuen 
bzw. akiualisierten Dokuinentcn mOssen keine lokalen Ko- 
pien der Dokumenie gespeichert werden, so dass dcr beno- 20 
ligte PlaUenspeicherpIalz drastisch reduziert werden kann. 

1 0046] Gegeniiber dem Rankdex Verfahren vcrhall sich 
leleP'inder wie cine konventionelle Volltexlsuchmaschinc, 
sofem die gesuchten BegrifTc niehl in Ankertexten auftre- 
leri. Das tiegl darin begriindel, dass aueh der Inhail der Do 25 
kurnenle indexieit wird. 

| 0047] Zwar wird im erfindungsgemalJen Relevanzbewer- 
lungsverfahren wie auch im Lycos- Verfahren die Popularity 
dcr Jirgebnisdokumente bewertel, jedoch gcht die Bewer- 
tung nach der erfindungsgemalien Lbsung weiler als bciin 30 
Lycos-Verfahren, da neben der reinen Volltexlindexierung, 
der Beriicksichtigung spezieller Dokumenlenbcstandieilc 
und der Popularity, wie bei Rankdex und Google aueh die 
Ankertexle beriicksichtigt werden. 

f°04S] Die Relevanz.bewertungsfunktion isl dariiber bin- is 
aus parametrisicrl, so dass die einzelnco bei der Bewertung 
beriicksichligten BesLandleile unterschiedlich gewichteL und 
die Bewemmgsfunklion insgesaml becinflusst werden kann 

Patentanspruche 40 

1 . Verfahren zur Rclcvanzbewertung bei der Indcxic- 
rung von Hyperlexl-Dokumenlen mittels Suchma- 
schine, bei dem Hypertext-Dokumente in der Indcxie- 
rungskomponente der Suchmaschine ausgewertel wer- 45 
den, dadurch gckennzeichnct, dass es in cine Aufbau- 
phase, eine Aktuafisicrungsphase und eine Anfrage- 
phase unterteilt ist, 

dass in der Aufbauphase die TTypertexl-Dokumcnle in 
der Indexierungskomponcnte gleichzeitig auf das Vbr- so 
handensein von Verweisen, speziell markierten und 
nichtmarkierten Texlinhalten durchsucht werden, wo- 
bei 

a) bei der Idenlifizierung von Verweisen, ftir jede 
aus diesen Verweisen besiimmbare Adressc ein 55 
neuer Dokumenteneintrag in der Indexienings- 
komponente angetegt bzw. ein bercits vorhande- 
ner Dokunionteneintrag aktuaiisieii. wird, dass fur 
die in den Verweisen vcrwendelen Begriffe der 
Ankertexle ebenfalls ein neuer Termeimrag in der <50 
Index ierungskornponenie angelegl. wird bzw. ein 
bereiis vorhandencr Terraeintrag aklualisierl wird, 
und dass fur jeden Begriff des Ankertextes ein 
parlielier Relevanzwert vorausberechnel wird, 

b) bei dor Idenlifizierung von spczidl markierten 65 
Texlinhalten, fur jede crmitteilc Markientng ein 
neuer Tcmieinnrag in der Indexienungskompo- 
nente angelcgt bzw. ein bereits angelegter Term- 
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dntrag aklualisierl wird, dass fdr jeden inarkienen 
Begriff ein parLiellcr Relevanzwcrl. vorausbcrcch- 
nel wird, und 

c) bei dcr Idenlifizierung von niehl- markierten 
Textinfonnationen in cincm auszuwertendcn Do- 
kutncnl ein neuer Tenncinlrag in der Indexie- 
rungskomponcnte angelegl. bzw. cin bereiis zu dcr 
lexlinlonnalion vorhandener Tenneimrag aktua- 
lisicn wird, und dass ftir jeden Termeimrag ein 
parlielier Relevanzwert vorausberechnel wird, 
dass in der Aklualisierungsphasc bereiis crfassle und 
indexicne Dokumenie. deren Inhail sich geiindert hal. 
automalisch aus dem Dokumentenindcx geloscin wer- 
den, 

dass <iie TcmieinlrSge zu diesen Dokurnenien akluali- 
siert werden, und dass die geanderlen Dokumenie so- 
fem sie weilerhin verfiigbar sind, noch einrnal cnlspre- 
ebend dcr Aufbauphasc in dcr Indcxierungskonipo- 
nenle erfasst werden, und 

dass in der Anfragephase auf die Anfiagc eines Nutzers 
in Abhangigkeit vom Abfragetyp, wie einfache Frage, 
komplexe Prage, Boot'schc Anfragc bzw. Phrasenan- 
frage aus der Indcxierungskomponente Angaben zu re- 
levanten Dokumenten emtiuell werden, wobei ftir je- 
des ermilielle Dokumenl der eigeiillielie Relevanzwert 
aus den vorausbereehnelen Relevanzwertanloilen, der 
zum Anfragezeitpunkt vorliegenden Anzahi an Ver- 
weisen auf das enniltellc Dokumenl. und der Gesamt- 
zahl der Dokumenie in der Indcxierungskomponente 
bercchnel wird, und dass die entsprechend jhrer Rele- 
vanzbewertung geordneten Angaben zu den Dokumen- 
ten zusammen mil Zusatzinformaiionen an den Nuizer 
ausgegeben werden. 
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